《Heterogeneous Graph Attention Network》
现实世界中的数据很多包含图结构,如社交网络、引文网络、万维网。图神经网络 GNN
作为一种强大的图结构数据的深度representation learning
方法,在图数据分析中表现出卓越的性能,并引起广泛的研究。例如,一些工作(《A new model for learning in graph domains》、《Gated graph sequence neural networks》、《The graph neural network model》
)利用神经网络来学习基于节点特征和图结构的 node representation
。一些工作(《Convolutional neural networks on graphs with fast localized spectral filtering》
、GraphSAGE
、GCN
)通过将卷积推广到图来提出图卷积网络。
深度学习的最新研究趋势是注意力机制,该机制可以处理可变大小的数据,并鼓励模型更关注于数据中最重要的部分。注意力机制已被证明在深度神经网络框架中的有效性,并广泛应用于各个领域,如文本分析、知识图谱、图像处理。Graph Attention Network: GAT
是一种新颖的卷积式图神经网络,它利用注意力机制来处理仅包含一种类型的节点或边的同质图。
尽管注意力机制在深度学习中取得成功,但是目前的异质图神经网络架构尚未考虑注意力机制。事实上,现实世界中的图通常带有多种类型的节点和边,这通常被称作异质信息网络(heterogeneous information network: HIN
)或异质图(heterogeneous graph
)。异质图包含更全面的信息和更丰富的语义,因此被广泛应用于许多数据挖掘任务中。由于异质图的复杂性,传统的 GNN
模型无法直接应用于异质图。
metapath
表示了不同类型对象之间的关系,它是一种广泛用于捕获语义的结构。以电影数据集 IMDB
为例,它包含三种类型的节点:电影(Movie
)、演员(Actor
)、导演(Director
)。
metapath
“电影-演员-电影” MAM
表示两部电影之间的共同演员关系。
metapath
“电影-导演-电影”MDM
表示两部电影之间的共同导演关系。
可以看到:采用不同的 metapath
,异质图中节点之间的关系可以具有不同的语义。
由于异质图的复杂性,传统的图神经网络无法直接应用于异质图。
基于以上分析,在为异质图设计具有注意力机制的神经网络体系结构时,需要满足以下需求:
图的异质性:异质性(heterogeneity
)是异质图的固有属性,即图中包含各种类型的节点和边。例如,不同类型的节点具有不同的特征,它们的特征可能位于不同的特征空间。如何同时处理如此复杂的异质图结构信息,同时保持多样化的特征信息是需要解决的问题。
semantic-level
注意力:异质图涉及不同的有意义和复杂的语义信息,这些语义信息通常以 metapath
来刻画。因此,异质图中不同的 metapath
可以抽取不同的语义信息。如何选择最有意义的 metapath
,并为 task-specific
融合语义信息是需要解决的问题。
semantic-level
注意力旨在了解每个 metapath
的重要性,并为其分配适当的权重。如,电影 “《终结者》” 可以通过 Movie-Actor-Movie
连接到 “《终结者2》” (都是由施瓦辛格主演),也可以通过 Movie-Year-Movie
连接到 “《Birdy》
” (都是在 1984
年拍摄)。但是在影片分类任务中,MAM
通常要比 MYM
更重要。
因此,均匀对待所有 metapath
是不切实际的,这会削弱某些有用的 metapath
提供的语义信息。
node-level
注意力:在异质图中,节点可以通过各种类型的关系来连接。给定一个 metapath
,每个节点多有很多基于该 metapath
的邻居。我们需要知道如何区分邻居之间的重要性,并选择一些信息丰富的邻居。对于每个节点,node-level
注意力旨在了解 metapath-based
邻居的重要性,并为他们分配不同的注意力值。
为解决这些问题,论文《Heterogeneous Graph Attention Network》
提出了一个新的异质图注意力网络 Heterogeneous graph Attention Network
,简称 HAN
。 HAN
同时考虑了 同时考虑了node-level
注意力和 semantic-level
注意力。具体而言,给定节点特征作为输入:
首先,HAN
使用 type-specific
转换矩阵将不同类型节点的特征投影到相同的特征空间。
然后,HAN
使用 node-level
注意力机制来获得节点及其 metapath-based
邻居之间的注意力得分。
然后,HAN
使用 semantic-level
注意力机制来获得各 metapath
针对具体任务的注意力得分。
基于这两个级别学到的注意力得分,HAN
可以通过分层(hierarchical
)的方式获得邻居和多个 metapath
的最佳组合,使得学到的 node embedding
可以更好地捕获异质图中复杂的结构信息和丰富的语义信息。之后,可以通过端到端的反向传播来优化整个模型。
论文的主要贡献:
据作者所知,这是研究基于注意力机制的异质图神经网络的首次尝试。论文的工作使图神经网络能够直接应用于异质图,并进一步促进了基于异质图的应用。
论文提出了一种新颖的异质图注意力网络 heterogeneous graph attention network: HAN
,它同时包含 node-level attention
和 semantic-level attention
。受益于这种分层的注意力机制,所提出的 HAN
可以同时考虑节点重要性和 metapath
重要性。此外,HAN
模型效率高效,其复杂度是 metapath-based
节点 pair
对的数量的线性复杂度,因此可以应用于大规模异质图。
论文进行了广泛的实验来评估所提出模型的性能。通过与 SOTA
模型进行比较,结果表明了 HAN
的优越性。更重要的是,通过分析分层注意力机制,HAN
展示了它对于异质图分析的潜在的量向好可解释性。
相关工作:
GNN
:
《new model for learning in graph domains》
和 《The graph neural network model》
中介绍了旨在扩展深度神经网络以处理任意图结构数据的图神经网络GNN
。
《Gated graph sequence neural networks》
提出了一种传播模型,该模型可以融合 gated recurrent unit: GRU
从而在所有节点上传播信息。
最近很多工作在图结构数据上推广卷积运算。图卷积神经网络的工作一般分为两类,即谱域(spectral domain
)卷积和非谱域(non-spectral domain
)卷积。
一方面,谱域卷积利用图的 spectral representation
来工作。
《Spectral networks and locally connected networks on graphs》
通过找到图的傅里叶基(Fourier basis
)从而将卷积推广到一般的图。
《Convolutional neural networks on graphs with fast localized spectral filtering》
利用 approximate
)平滑的滤波器。
《Semi-Supervised Classification with Graph Convolutional Networks》
提出了一种谱方法,称作图卷积网络(Graph Convolutional Network: GCN
)。该方法通过普卷积的局部一阶近似来设计图卷积网络。
另一方面,非谱域卷积直接在图上定义卷积。
《Inductive Representation Learning on Large Graphs》
提出了 GraphSAGE
,它在固定大小的节点邻域上执行基于神经网络的聚合器。它可以通过聚合来自节点局部邻域的特征来学习一个函数,该函数用于生成 node embedding
。
注意力机制(如 self-attention
和 soft-attention
)已经成为深度学习中最有影响力的机制之一。先前的一些工作提出了用于图的注意力机制,如 《Aspect-Level Deep Collaborative Filtering via Heterogeneous Information Network》
、《Leveraging Meta-path based Context for Top-N Recommendation with A Neural Co-AttentionModel》
。受到注意力机制的启发,人们提出 Graph Attention Network: GAT
来学习节点与其邻居之间的重要性,并融合(fuse
)邻居进行节点分类。
但是,上述图神经网络无法处理多种类型的节点和边,它们仅能处理同质图。
Network Embedding
:network embedding
,即 network representation learning: NRL
,用于将网络嵌入到低维空间中并同时保留网络结构和属性,以便将学到的 embedding
应用于下游网络任务。如,基于随机游走的方法(node2vec, Deepwalk
)、基于深度神经网络的方法(《Structural deep network embedding》
)、基于矩阵分解的方法(《Asymmetric transitivity preserving graph embedding》,《Community Preserving Network Embedding》
)、以及其它方法(LINE
)。然而,所有这些算法都是针对同质图提出的。
异质图嵌入主要聚焦于保留 metapath-based
的结构信息。
ESim
接受用户定义的 metapath
作为指导,在用户偏好(user-preferred
)的 embedding
空间中学习 node embedding
从而进行相似性搜索。即使 ESim
可以利用多个 metapath
,它也无法了解 metapath
的重要性。为了达到最佳性能,ESim
需要进行网格搜索从而找到所有的 metapath
的最佳权重。
metapath2vec
设计了一种 metapath-based
随机游走,并利用 skip-gram
来执行异质图嵌入。但是,metapath2vec
只能使用一个 metapath
,可能会忽略一些有用的信息。
与 metapath2vec
类似,HERec
提出了一种类型约束策略(type constraint strategy
)来过滤节点序列并捕获异质图中反应的复杂语义。
HIN2Vec
执行多个预测的训练任务,同时学习节点和 metapath
的潜在向量。
《PME: Projected Metric Embedding on Heterogeneous Networksfor Link Prediction》
提出了一个叫做 PME
的投影度量嵌入模型(projected metric embedding model
),该模型可以通过欧式距离来保持节点邻近性。PME
将不同类型的节点投影到同一个关系空间(relation space
)中,进行异质链接的预测。
为了研究如何全面地描述异质图,《Easing Embedding Learning by Comprehensive Transcription of Heterogeneous InformationNetworks》
提出了 hEER
,它可以通过 edge representation
来嵌入异质图。
《Gotcha-sly malware!: Scorpion a metagraph2vec based malware detection system》
提出了一个嵌入模型 metapath2vec
,其中网络结构和语义都被最大限度地保留从而用于恶意软件检测。
《Joint embedding of meta-path and meta-graph for heterogeneous information networks》
提出了 metapath-based
的 network embedding
模型,该模型同时考虑了 meta-graph
的所有 meta
信息的隐藏关系( hidden relation
)。
综上所述,上述所有算法都没有考虑异质图 representation learning
中的注意力机制。
异质图是一种特殊类型的信息网络,包含多种类型的节点或多种类型的边。
定义异质网络
节点有多种类型,节点类型集合为
边有多种类型,边类型集合为
对于异质网络,有
定义 metapath
metapath
定义了 composition
)。
metapath
表示不同对象之间的语义路径(semantic path
) 。
定义 metapath-based
邻居:给定一个 metapath
metapath-based
邻居 metapath
如下图所示,我们构建了IMDB
的一个异质图,它包含多种类型的节点(演员Actor:A
,电影Movie:M
,导演 Director:D
),以及多种类型的关系。
两个电影可以通过多种 metapath
连接,如 MAM, MDM
。
不同的 metapath
通常表示不同的语义,如:MAM
表示两部电影是同一个演员参演的;MDM
表示两部电影是同一个导演主导的。
图 d
中,给定 metapath MAM
的情况下, metapath-based
邻居包含 metapath MDM
的情况下, metapath-based
邻居包含
现有的图神经网络可以处理任意图结构数据,但是它们都是针对同质网络来设计。由于 metapath
和 metapath-based
邻居是异质图的两个基本结构,因此我们为异质图设计一种新的半监督图神经网络 HAN
。
HAN
采用 hierarchical attention
结构:node-level
注意力机制、semantic-level
注意力机制。下图给出了 HAN
的整体框架:
首先我们提出 node-level
注意力,从而获取 metapath-based
邻居的权重,并在特定语义下(每个metapath
对应一个语义)聚合这些邻居从而得到节点的 embedding
。
然后我们提出 semantic-level
注意力,从而区分 metapath
的权重。从而最终结合了 node-level
注意力和 semantic-level
注意力来获取 node embedding
的最佳加权组合。
每个节点的 metapath-based
邻居扮演了不同的角色,并且在 task-specific node embedding
学习中表现出不同的重要性。因此,我们考虑 node-level
注意力,它能够学习异质图中每个节点的 metapath-based
邻居的重要性,并聚合这些重要的邻居 embedding
从而生成node embedding
。
由于节点的异质性,不同类型节点具有不同的特征空间。因此,对于类型为 type-specific
转换矩阵
节点特征的投影过程为:
其中:
通过type-specific
特征投影过程,node-level
注意力可以处理任意类型的节点。
然后,我们利用self-attention
机制来学习 metapath-based
邻居之间的重要性。
给定一对节点 metapath
node-level
注意力
基于 metapath
的节点 pair
对
其中:
node-level
注意力的深度神经网络。
给定 metapath
metapath-based
节点 pair
对之间共享,这是因为在 metapath
metapath
节点重要性是非对称的,即 node-level
注意力可以保留异质图的不对称性,而这种不对称性是异质图的关键特性。
即使
,由于不同节点具有不同的邻居集合,因此归一化之后的 。
给定 metapath
metapath-based
节点 pair
对
通常我们选择
其中:
metapath
node-level
注意力向量(attention vector
),它是 metapath-specific
的。
然后,我们通过masked attention
将结构信息注入到模型,这意味着我们计算 metapath-based
邻居(包括其自身)。
在获得 metapath-based
节点 pair
对的重要性之后,我们通过 softmax
函数对其进行归一化,从而获得权重系数
可以看到:
权重系数
权重系数
由于权重系数 metapath
生成的,因此它是 semantic-specific
的,并且能够捕获一种语义信息。
最后,节点 metapath-based embedding
可以通过邻居的投影后的特征和相应的权重系数进行聚合:
其中 metapath
embedding
。
为更好地理解 node-level
聚合过程,我们以下图 (a)
为例进行简要说明。每个节点的 embedding
均由其 metapath-based
邻居的特征聚合而来。由于注意力权重 metapath
而生成的,因此它是 semantic-specific
并且能够捕获一种语义信息。
由于异质图的数据规模可大可小,其规模的方差很大。为使得 HAN
能够应用到各种规模的异质图,我们将 node-level
注意力扩展为 multi-head
注意力,从而使得训练过程更为稳定。
具体而言,我们重复 node-level
注意力 embedding
拼接,从而作为最终的 semantic-specific embedding
:
其中 head
学到的权重系数。
给定 metapath
集合 node-level
注意力机制之后,我们可以获得 semantic-specific node embedding
,记作 semantic-specific node embedding
包含了图中所有的节点。
如何确定这个
metapath
集合,论文并未给出任何答案或方向。
通常异质图中每个节点都包含多种类型的语义信息,并且 smantic-specific node embedding
仅能反映节点某个方面的语义。为学到更全面的节点 embedding
,我们需要融合各种类型语义。
为解决多种类型语义融合的挑战,我们提出一种新的 semantic-level attention
机制,可以自动学习 task-specific
下不同 metapath
的重要性,从而融合多种类型的语义。
考虑 node-level
注意力下学到的 semantic-specific node embedding
metapath
的重要性为
其中 semantic-level
注意力的深度神经网络。
为学习 metapath
的重要性:
我们首先通过非线性变换(如单层 MLP
)来转换 semantic-specifc node embedding
。
然后,我们将转后的 embedding
和一个 semantic-level
注意力向量
最后我们聚合所有 semantic-specific node embedding
的重要性,从而得到每个 metapath
的重要性。
记 metapath
其中:
semantic-level
的注意力向量。
注意:为进行有意义的比较,所有的 metapath
和 semantic-specific node embedding
都共享相同的
上式重写为:
。因此是对 metapath
计算 metapath-level
的embedding
,然后和 计算内积。 这里对不同
metapath
共享相同的投影矩阵而没有采用不同的投影矩阵 ,因为这里 已经被投影到相同的特征空间了。
在得到每个 metapath
重要性之后,我们通过 softmax
函数对其进行归一化。metapath
metapath
metapath
metapath
使用学到的权重作为系数,我们可以融合这些 semantic-specifc node embedding
,从而得到最终的 embedding
为:
为更好地理解 sementic-level
聚合过程,我们在下图的 (b)
中进行简要说明。最终的 embedding
由所有 semantic-specific node embedding
进行聚合。
对于不同的任务,我们可以设计不同的损失函数。对于半监督节点分类任务,我们可以使用交叉熵损失函数:
其中:
label
的 one-hot
向量。
embedding
向量。
在标记数据的指导下,我们可以通过反向传播优化 HAN
模型,并学习 node embedding
。
HAN
算法:
输入:
异质图
所有节点的特征
metapath
集合
multi-head
数量
输出:
最终的 node embedding
矩阵
node-level
每个 head
的注意力权重
semantic-level
的注意力权重
算法步骤:
迭代metapath
:
迭代多头
进行 type-specific
转换:
遍历所有节点
找到 metapath-based
邻域集合
对于
计算 semantic-specific
节点 embedding
:
拼接多头学到的 semantic-specific
节点 embedding
:
计算 metapath
融合semantic-specific node embedding
:
计算交叉熵损失:
反向传播并更新参数
返回
HAN
可以处理异质图中各种类型的节点和各种类型的关系,并融合了丰富的语义信息。信息可以通过多种关系从一种类型的节点传播到另一种类型的节点。得益于这种异质的图注意力网络,不同类型节点的 embedding
能够不断相互促进提升。
HAN
是高效的,可以轻松并行化。每个节点的注意力可以独立地并行化,每条 metapath
的注意力也可以独立地计算。
给定一个 metapath
node-level
注意力的时间复杂度为
metapath
metapath
pair
对的数量。
multi-head
的数量。
总体复杂度和metapath
中节点数量成线性,和 metapath
中节点pair
对的数量成线性。
分层注意力的参数在整个异质图上共享,这意味着 HAN
的参数规模不依赖于异质图的大小,并且 HAN
可以应用于 inductive learning
。
HAN
对于学到的node embedding
具有潜在的良好解释性,这对于异质图的分析是一个很大的优势。
有了节点重要性和 metapath
重要性,HAN
可以在具体任务下更关注于一些有意义的节点或 metapath
,并给异质图一个更全面的描述。
根据注意力值,我们可以检查哪些节点或 metapath
为任务做出了更多(或更少)的贡献,这有助于分析和解释我们预测的结果。
数据集:
DBLP
:我们提取了 DBLP
的子集,其中包含 14328
篇论文(paper:P
)、 4057
位作者(author:A
)、20
个会议(conference:C
)、8789
个术语 (term:T
) 。作者分为四个领域:数据库(database
)、数据挖掘(data mining
)、机器学习(machine learning
)、信息检索(information retrieval
)。我们根据作者提交的会议来标记每个作者的研究领域。
作者的特征是他们发表文档的关键词的 bag-of-word
。这里我们使用 metapath
集合
ACM
:我们提取在 KDD, SIGMOD, SIGCOMM, MobiCOMM, VLDB
中发表的论文,并将论文分为三个类别:数据库(database
)、无线通信(wireless commmunication
)、数据挖掘(data mining
)。然后我们构建一个包含 3025
篇论文(paper:P
)、5835
名作者(auther:A
)、56
个主题(subject:S
)的异质图,论文标签为它被发表的会议。
论文的特征为关键词的 bag-of-word
。这里我们使用 metapath
集合
IMDB
:我们提取 IMDB
的子集,其中包含 4780
部电影(movie:M
)、5841
名演员(actor:A
)、2269
位导演(director:D
)。电影根据类型分为三个类别:动作片 Action
、喜剧 Comedy
、戏剧 Drama
。
电影的特征为电影情节的 bag-of-word
。这里我们使用 metapath
集合
数据集的统计结果如下所示:
baseline
方法:我们和一些最新的 baseline
方法比较,其中包括:同质网络 embedding
、异质网络 embedding
、基于图神经网络的方法。为分别验证 node-level
注意力和 semantic-level
注意力,我们还测试了 HAN
的两个变体。
DeepWalk
:一种基于随机游走的网络 embedding
方法,仅用于同质图。这里我们忽略节点的异质性,并在整个异质图上执行 DeepWalk
。
ESim
:一种异质图的embedding
方法,可以从多个 metapath
捕获语义信息。
由于难以搜索一组 metapath
的权重,因此我们将 HAN
学到的 metapath
权重分配给ESim
。
metapath2vec
:一种异质图 embedding
方法,该方法执行metapath-based
随机游走,并利用 skip-gram
嵌入异质图。
这里我们测试 metapath2vec
的所有 metapath
并报告最佳性能。
HERec
:一种异质图 embedding
方法,该方法设计了一种类型约束策略来过滤节点序列,并利用 skip-gram
来嵌入异质图。
这里我们测试了HERec
的所有metapath
并报告了最佳性能。
GCN
:用于同质图的半监督图神经网络。
这里我们测试了 GCN
的所有 metapath
,并报告了最佳性能。
GAT
:用于同质图的半监督神经网络,它考虑了图上的注意力机制。
这里我们测试了 GAT
的所有 metapath
,并报告了最佳性能。
HAN
的一个变体,它移除了 node-level
注意力机制,并给节点的每个邻域赋予相同的权重。
HAN
的一个变体,它移除了 semantic-level
注意力机制,并给每个metapath
赋予相同的权重。
HAN
:我们提出的半监督图神经网络,它同时采用了 node-level
注意力和 semantic-level
注意力。
这里有些
baseline
是无监督的、有些是半监督的。将半监督方法和无监督方法进行比较是不公平的,因为半监督方法可以获得部分的label
信息,因此半监督方法通常都会比无监督方法更好。
实验配置:
HAN
:
随机初始化参数并使用 Adam
优化器,学习率为 0.005
,正则化参数为 0.001
。
semantic-level
注意力向量 128
,multi-head
数量
attention dropout
比例为 dropout rate = 0.6
执行早停策略,早停的 patience = 100
。即:如果 100
个连续的 epoch
中,验证集损失没有降低则停止训练。
对于 GCN,GAT
,我们使用验证集来调优其超参数。
对于 GCN,GAT,HAN
等半监督图神经网络,我们使用完全相同的训练集、验证集、测试集,从而确保公平性。
对于 DeepWalk, ESim, metapath2vec, HERec
等基于随机游走的方法,我们将每个节点开始的随机游走数量设为 40
,每个随机游走序列长度为 100
,上下文窗口大小为 5
,负样本的采样数量为 5
。
为公平起见,我们将上述所有方法的 embedding
维度设为 64
。
我们使用 KNN
分类器对节点进行分类,分类器的输入为模型学到的node embedding
。由于图结构数据的方差可能很大,因此我们重复该过程 10
次,并报告平均的 Macro-F1
和 Micro-F1
。
HAN
在所有数据集中超越了其它baseline
。
对于传统的异质图 embedding
方法,能够利用多个 metapath
的 ESim
比 metapath2vec
表现更好。
通常结合了图结构信息性和节点特征信息的图神经网络(如 GCN,GAT
)要优于异质图 embedding
方法。
相较于 GCN
和 GAT
和 HAN
可以对邻居进行适当地加权,从而提高了学到的 embedding
的性能。
和 GAT
相比,为异质图设计的 HAN
能够成功地捕获丰富的语义信息并展示其优越性。
在没有 node-level
注意力 (semantic-level
注意力 (HAN
更差。这表明 node-level
注意力建模和 semantic-level
注意力建模的重要性。
相比 DBLP
,HAN
在 ACM,IMDB
数据集的效果提升更明显,这是因为在 DBLP
中, metapath APCPA
比其它的 metapath
重要得多,因此仅针对该 metapath
的 HERec/GCN/GAT
已经能够取得很好的效果。。我们在下文通过分析 semantic-level
注意力来解释该现象。
因此,结论证明了在异质图中捕获node-level
和 semantic-level
的重要性非常重要。
我们还对学到的node embedding
执行聚类,从而评估embedding
的聚类效果。这里我们使用 KMeans
聚类算法,聚类数量设为节点的类别数量。我们使用节点的真实类别为真实的聚类类别,并使用 NMI
和 ARI
来评估聚类结果的质量。
归一化互信息 NMI
:
其中:
ADjusted Rand index:ARI
:
其中:
RI
指标的最大值; RI
指标的期望。这是为了使得随机聚类的情况下该指标为零。
由于 KMeans
的性能受到初始质心的影响,因此我们将该过程随机重复执行 10
次,并报告平均结果。
结论:
HAN
在所有数据集上始终优于其它 baseline
。
基于图神经网络的算法通常可以获得更好的性能。
由于不区分节点和 metapath
的重要性,因此 metapath2vec
和 GCN
的聚类效果较差。
在多个 metapath
的指导下,HAN
的性能明显优于 GCN/GAT
。
如果没有 node-level
注意力 (semantic-level
注意力 (HAN
的性能会退化。这表明 node-level
注意力建模和 semantic-level
注意力建模的重要性。
基于上述分析,我们发现 HAN
可以对异质图进行全面描述,并取得显著改善。
HAN
的一个显著特性是结合了分层 attention
机制,从而在学习 embedding
时同时考虑了节点邻居的重要性和 metapath
的重要性。为了更好地理解邻居重要性和 metapath
重要性,我们对分层注意力机制进行详细的分析。
node-level
注意力:如前所述,HAN
可以学到 metapath
中节点及其邻居之间的注意力值。对于具体的任务,重要的邻居往往具有更大的注意力值。
这里我们以 ACM
数据集中的论文 P831
为例。给定一个描述不同论文的 author
关系的 metapath Paper-Author-Paper
,我们枚举了论文 P831
的 metapath-based
邻居,其注意力值如下图所示。不同颜色表示不同的类别,如绿色表示数据挖掘、蓝色表示数据库、橙色表示无线通信。
从图 a
中可以看到:
P831
链接到 P699
和 P133
,它们都属于数据挖掘。
P831
链接到 P2384
和 P2328
,它们都属于数据集。
P831
和 P1973
相连,它们都属于无线通信。
从图 b
中可以看到:
P831
从node-level
注意力中获得最大的注意力值,这意味着 P831
自身在学习其 embedding
中起着最重要的作用。
这是合理的,因为通常节点类别主要由其本身的特性决定,而邻居信息仅作为一种补充。
P699
和 P133
在 node-level
注意力种获得第二、第三大的注意力值。这是因为 P699
和 P133
也属于数据挖掘,它们为识别 P831
的类别做出重大贡献。
其余邻居的注意力较小,无法为识别 P831
的类别做出重要贡献。
根据以上分析,我们可以看到 node-level
注意力可以区分邻居之间的差别,并为某些有意义的邻居分配更大的权重。
semantic-level
注意力:如前所述,HAN
可以学到 metapath
对特定任务的重要性。为验证 semantic-level
注意力的能力,我们以 DBLP
和 ACM
为例,给出了单个 metapath
聚类结果(NMI
),以及对应注意力值。
显然,单个 metapath
的性能和它的注意力权重之间存在正相关。
对于 DBLP
,HAN
赋予 APCPA
更大的权重,这意味着 HAN
认为 APCPA
是确定作者研究领域的最关键的 metapath
。这是有道理的,因为作者的研究领域和他们提交的会议是高度相关的。如,一些 NLP
研究人员主要将其论文提交给 ACL
或 EMNLP
;另一些数据挖掘研究人员可能将其论文提交给 KDD
或 WWW
。
另外,APA
很难准确地确定作者的研究领域。因此,如果我们平等地对待这些 metapath
(如
根据每个 metapath
的注意力值,我们发现 metapath APCPA
比 APA, APTPA
有用的多。因此,即使 HAN
将这些 metapath
聚合在一起,APCPA
在确定作者研究领域方面仍然起着主导作用。
这也是为什么在 DBLP
中,HAN
性能可能不如 ACM
和 IMDB
中提升得那么多。
对于 ACM
,我们也得出类似得结论。对于 ACM
,PAP
的权重更高。
由于 PAP
的性能略好于 PSP
,因此
为直观地进行比较,我们执行可视化任务,从而在低维空间中可视化异质图。具体而言,我们基于模型学习节点 embedding
,并将学到的 embedding
映射到二维空间。这里,我们使用 t-SNE
来可视化 DBLP
的 author
节点,并根据节点类别来进行染色。
结论:
为同质图设计的 GCN
和 GAT
效果不佳,属于不同研究领域的作者彼此混杂。
metapath2vec
的性能比上述同质图的神经网络效果好得多,它表明适当的 metapath
(如 APCPA
) 对异质图分析做出重要贡献。
但是,由于 metapath2vec
仅考虑一条 metapath
,因此不同类别节点之间的边界仍然模糊。
HAN
的可视化效果最好。在多种 metapath
指导下,HAN
学到的 embedding
具有高度的簇内相似性,并将具有不同研究领域学者的边界的区分开来。
这里我们研究参数敏感性,并报告了不同参数下,ACM
数据集上的聚类NMI
结果。
最终 embedding
embedding
维度的增加,HAN
性能先提高后下降。
原因是:HAN
需要一个合适的维度来编码语义信息,但是维度过大之后可能会引入额外的冗余(即,过拟合)。
semantic-level
注意力向量维度:可以看到,HAN
的性能首先随着 semantic-level
注意力向量 128
时达到最佳性能;然后随着维度的增加而下降,这可能是因为过拟合导致。
multi-head
数量 HAN
性能越好。但是随着 HAN
的性能略有改善(改善幅度不大)。同时,我们还发现 multi-head attention
可以使得训练过程更为稳定。
注意:当 multi-head
退化为单头。